林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 16 (完结 ) -- Finale 


VES: 红色 石头 ARE: AI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Matrix Factorization。 通 过 电影 推荐 系统 的 例子 ， 介 绍 Matrix 
Factorization 其 实 是 一 个 提取 用 户 特 征 ， 关 于 电影 的 线性 模型 。 反 过 来 也 可 以 看 出 是 
关于 用 户 的 线性 模型 。 然 后 ， 我 们 使 用 SGD 对 模型 进行 最 佳 化 。 本 节 课 我 们 将 对 机 器 
学 习 技 法 课程 介绍 过 的 所 有 内 容 做 个 总 结 ， 分 成 三 个 部 分 : Feature Exploitation 


Techniques, Error Optimization Techniques 和 Overfitting Elimination Techniques, 


Feature Exploitation Techniques 


我 们 在 本 系列 课程 中 介绍 的 第 一 个 特征 提取 的 方法 就 是 kernel。Kernel 运 算 将 特征 转 
换 和 计算 内 积 这 两 个 步骤 合 二 为 一 ， 提 高 了 计算 效率 。 我 们 介绍 过 的 kernel 有 : 
Polynormial Kernel、Gaussian Kernel、Stump Kernel 等。 另外， 我 们 可 以 将 不 同 的 
kernels 相 加 (transform union) 或 者 相 乘 (transform combination) ， 得 到 不 同 的 
kernels 的 结合 形式 ， 让 模型 更 加 复杂 。 值 得 一 提 的 是 ， 要 成 为 kernel， 必 须 满足 
Mercer Condition。 不 同 的 kernel 可 以 搭配 不 同 的 kernel| 模 型 ， 比 如 : SVM、SVR 和 
probabilistic SVM 等 ， 还 包括 一 些 不 太 常 用 的 模型 : kernel ridge regression, kernel 
logistic regression。 使 用 这 些 kernel 模 型 就 可 以 将 线性 模型 扩展 到 非 线 性 模型 ，kernel 
就 是 实现 一 种 特征 转换 ， 从 而 能 够 处 理 非 常 复 杂 的 非 线性 模型 。 顺 便 提 一 下 ， 因 为 
PCA、k-Means 等 算法 都 包含 了 内 积 运算 ， 所 以 它们 都 对 应 有 相应 的 kernel 版 本 。 


Exploiting Numerous Features via Kernel 


numerous features within some ®: 
embedded in kernel Kọ with inner product operation | 


Polynomial Kernel ° Gaussian Kernel Stump Kernel 


‘scaled’ polynomial infinite-dimensional decision-stumps as 
transforms transforms transforms 





















Sum of Kernels Product of Kernels ~ Mercer Kernels 
transform union transform combination | transform implicitly 


kernel ridge kernel logistic 


regression regression 


SVR probabilistic SVM 


possibly Kernel PCA, Kernel k-Means, ... | 








Kernel 是 我 们 利用 特征 转换 的 第 一 种 方法 ， 那 利用 特征 转换 的 第 二 种 方法 就 是 
Aggregation。 我 们 之 前 介绍 的 所 有 的 hypothesis 都 可 以 看 成 是 一 种 特征 转 损 ， 然 后 再 
由 这 些 g 组 合成 G。 我 们 介绍 过 的 分 类 模型 (hypothesis) 包括 : Decision Stump、 
Decision Tree 和 Gaussian RBF 等 。 如 果 所 有 的 g 是 已 知 的， 就 可 以 进行 blending， 例 
如 Uniform、Non-Uniform 和 Conditional 等 方式 进行 aggregation。 如 果 所 有 的 g 是 未 知 
的 ， 可 以 使 用 例如 Bagging、AdaBoost 和 Decision Tree 的 方法 来 建立 模型 。 除 此 之 
外 ， 还 有 probabilistic SVM 模型 。 值 得 一 提 的 是 ， 机 器 学 习 中 很 多 模型 都 是 类 似 的 ， 
我 们 在 设计 一 个 机 器 学 习 模型 时 ， 应 该 融会 贯通 。 


Exploiting Predictive Features via Aggregation 


predictive features within some ®: 
r(X) = g(x) | 


Decision Stump Decision Tree (CEUCAN EW ts 


simplest perceptron; | branching (divide) + prototype (center) + 
simplest DecTree leaves (conquer) influence 














Uniform Non-Uniform Conditional 


Bagging; AdaBoost; Decision Tree; 
Random Forest GradientBoost Nearest Neighbor 


probabilistic SVM 


possibly Infinite Ensemble Learning, 
Decision Tree SVM, ... 











除 此 之 外 ， 我 们 还 介绍 了 利用 提取 的 方式 ， 找 出 潜藏 的 特征 (Hidden Features) 。 一 
般 通 过 unsupervised learning 的 方法 ， 从 原始 数据 中 提取 出 隐藏 特征 ， 使 用 权重 表 
征 。 相 应 的 模型 包括 : Neural Network、RBF Network、Matrix Factorization 等 。 这 些 
模型 使 用 的 unsupervised learning 方 法 包括 : AdaBoost、k-Means 和 Autoencoder、 
PCA 等 。 


Exploiting Hidden Features via Extraction 
hidden features within some 中 : 







as hidden variables to be ‘jointly’ optimized with usual weights 







—possibly with the help of unsupervised learning 


Neural Network: RBF Network Matrix Factorization 
Deep Learning 


neuron weights 





RBF centers user/movie factors 











AdaBoost; Autoencoder: 
GradientBoost PCA 
g: parameters ‘basis’ directions 













cluster centers 






possibly GradientBoosted Neurons, 
NNet on Factorized Features, ... | 


另外 ， 还 有 一 种 非常 有 用 的 特征 转换 方法 是 维度 压缩 ， 即 将 高 维度 的 数据 降低 (FR 
影 ) 到 低 维 度 的 数据 。 我 们 介绍 过 的 维度 压缩 模型 包括 : Decision Stump, Random 
Forest Tree Branching、Autoencoder、PCA 和 Matrix Factorization 等 。 这 些 从 高 纬度 


到 低 纬度 的 特征 转换 在 实际 应 用 中 作用 很 大 。 


Exploiting Low-Dim. Features via Compression 


low-dimensional features within some ®: 
compressed from original features 


Autoencoder;PCA 
info.-preserving 
compression 















Decision Stump; Random Forest 
DecTree Branching Tree Branching 


‘best’ naive projection | ‘random’ low-dim. 
to R projection 












Matrix Factorization 


projection from 
abstract to concrete 







Feature Selection 
‘most-helpful’ low-dimensional projection 


possibly other ‘dimension reduction’ models | 


Error Optimization Techniques 


接 下 来 我 们 将 总 结 一 下 本 系列 课程 中 介绍 过 哪些 优化 技巧 。 首 先 ， 第 一 个 数值 优化 技 
巧 就 是 梯度 下 降 (Gradient Descent) ， 即 让 变量 沿 着 其 梯度 反方 向 变化 ， 不 断 接近 
最 优 解 。 例 如 我 们 介绍 过 的 SGD、Steepest Descent 和 Functional GD 都 是 利用 了 梯度 
下 降 的 技巧 。 


Numerical Optimization via Gradient Descent 


when VE ‘approximately’ defined, use it for ist order approximation: 
new variables = old variables — nVE | 


Functional GD 
AdaBoost; 
GradientBoost 









SGD/Minibatch/GD ‘* Steepest Descent 
(Kernel) LogReg; AdaBoost; 
Neural Network GradientBoost 
[backprop]; 
Matrix Factorization; 
Linear SVM (maybe) 


possibly 2nd order techniques, 
GD under constraints, ... | 
而 对 于 一 些 更 复杂 的 最 佳 化 问题 ， 无 法 直接 利用 梯度 下 降 方 法 来 做 ， 往 往 需要 一 些 数 
学 上 的 推导 来 得 到 最 优 解 。 最 典型 的 例子 是 Dual SVM， 还 包括 Kernel LogReg、 
Kernel RidgeReg 和 PCA 等 等 。 这 些 模型 本 身 包 含 了 很 多 数学 上 的 一 些 知识 ， 例 如 线 


性 代数 等 等 。 除 此 之 外 ， 还 有 一 些 boosting 和 kernel 模 型 ， 虽 然 本 课程 中 没有 提 到 ， 但 
是 都 会 用 到 类 似 的 数学 推导 和 转换 技巧 。 
















Indirect Optimization via Equivalent Solution 
when difficult to solve original problem, 
seek for equivalent solution | 


Dual SVM Kernel LogReg 
Kernel RidgeReg 


equivalence via equivalence via equivalence to 
convex QP representer eigenproblem 


some other boosting models and modern 
solvers of kernel models rely on sucha 
technique heavily 


如 果 原 始 问题 比较 复杂 ， 求 解 比较 困难 ,我 们 可 以 将 原始 问题 拆 分 为 子 问题 以 简化 计 





算 。 也 就 是 将 问题 划分 为 多 个 步骤 进行 求解 ， 即 MultirStage。 例 如 probabilistic 

SVM, linear blending, RBF Network 等 。 还 可 以 使 用 交叉 迭代 优化 的 方法 ， 即 

Alternating Optim。 例 如 k-Means、alternating LeastSqr 等 。 除 此 之 外 ， 还 可 以 采样 分 
治之 的 方法 ， 即 Divide & Conquer。 例 如 decision tree, 


Complicated Optimization via Multiple Steps 
when difficult to solve original problem, 
seek for ‘easier’ sub-problems | 


Multi-Stage 
probabilistic SVM; 












Alternating Optim. 
k-Means; 


Divide & Conquer 
decision tree; 











linear blending; alternating LeastSar; 
stacking; (steepest descent) 
RBF Network; 

DeepNet pre-training 


useful for complicated models | 


Overfitting Elimination Techniques 


Feature Exploitation Techniques 和 Error Optimization Techniques 都 是 为 了 优化 复杂 
模型 ， 减 小 瓦 n。 但 是 为" 太 小 有 很 可 能 会 造成 过 拟 合 overfiting。 因 此 ， 机 器 学 习 
中 ，Overfitting Elimination 尤 为 重要 。 


首先 ， 可 以 使 用 Regularization 来 避免 过 拟 合 现象 友 生 。 我 们 介绍 过 的 方法 包括 : 


large-margin、L2、voting/averaging 等 等 。 


Overfitting Elimination via Regularization 


when model too ‘powerful’: 
add brakes somewhere | 


voting/averaging 
uniform blending; 
Bagging; 

Random Forest 











large-margin 
SVM; 
AdaBoost (indirectly) 













SVR; 
kernel models; 
NNet [weight-decay] 










constraining 
autoenc. [weights]; 
RBF [# centers]; 






denoising weight-elimination 


autoencoder 





pruning early stopping 
decision tree NNet (any GD-like) 


arguably most important techniques | 


除了 Regularization 之 外 ， 还 可 以 使 用 Validation 来 消除 Overfitting。 我 们 介绍 过 的 
Validation 包 括 : SV、OOB 和 Internal Validation 等 。 


Overfitting Elimination via Validation 


when model too ‘powerful’: 
check performance carefully and honestly | 


Internal Validation 
blending; 
DecTree pruning 


simple but necessary | 


Machine Learning in Action 










Random Forest 





SVM/SVR 





本 小 节 介 绍 了 林 轩 田 老师 所 在 的 台大 团队 在 近 几 年 的 KDDCup 国 际 竞赛 上 的 表现 和 使 
用 的 各 种 机 器 算法 。 融 合 了 我 们 在 本 系列 课程 中 所 介绍 的 很 多 机 器 学 习 技 法 和 模型 。 
这 里 不 再 一 一 袭 述 ， 将 相应 的 图 片 贴 出 来 ， 读 者 自己 看 看 吧 ，。 


NTU KDDCup 2010 World Champion Model 


Feature engineering and classifier ensemble for KDD Cup 2010, 
Yu et al., KDDCup 2010 | 


linear blending of | 
Logistic Regression + Random Forest + 
many rawly encoded features | human-designed features 


yes, you've learned everything! :-) | 





NTU KDDCup 2011 Track 1 World Champion Model 


A linear ensemble of individual and blended models for music rating 
prediction, Chen et al., KDDCup 2011 | 


NNet, DecTree-like, and then linear blending of 
e Matrix Factorization variants, including probabilistic PCA 
e Restricted Boltzmann Machines: an ‘extended’ autoencoder 
e k Nearest Neighbors 


e Probabilistic Latent Semantic Analysis: 
an extraction model that has ‘soft clusters’ as hidden variables 


linear regression, NNet, & GBDT 





yes, you can ‘easily’ 
understand everything! :-) | 


NTU KDDCup 2012 Track 2 World Champion Model 


A two-stage ensemble of diverse models for advertisement ranking in 
KDD Cup 2012, Wu et al., KDDCup 2012 | 


NNet, GBDT-like, and then linear blending of 
e Linear Regression variants, including linear SVR 
e Logistic Regression variants 
e Matrix Factorization variants 





‘key’ is to blend properly without overfitting | 


NTU KDDCup 2013 Track 1 World Champion Model 
Combination of feature engineering and ranking models for paper- 
author identification in KDD Cup 2013, Li et al., KDDCup 2013 | 


linear blending of 


sa Random Forest with many many many trees 
e GBDT variants 


with tons of efforts in designing features 


‘another key’ is to construct features with 
domain knowledge | 


ICDM 在 2006 年 的 时 候 发 布 了 排名 前 十 的 数据 挖掘 算法 ， 如 下 图 所 示 。 其 中 大 部 分 的 
算法 我 们 在 本 系列 的 课程 中 都 有 过 介绍 。 值 得 一 提 的 是 Naive Bayes 算 法 本 课程 中 没 
有 涉及 ， 贝 叶 斯 模型 在 实际 中 应 用 还 是 挺 广泛 的 ， 后 续 可 能 还 需要 深入 学 习 一 下 。 





ICDM 2006 Top 10 Data Mining Algorithms 


© C4.5: another decision © PageRank: for 
tree link-analysis, similar to 

© k-Means matrix factorization 

© SVM @ AdaBoost 

@ Apriori: for frequent itemset © k Nearest Neighbor 
mining © Naive Bayes: a simple 

@ EM: ‘alternating linear mode! with ‘weights’ 
optimization’ algorithm for decided by data statistics 
some models © C&RT 





personal view of five missing ML competitors: 
LinReg, LogReg, 
Random Forest, GBDT, NNet 





最 后 ， 我 们 将 所 有 介绍 过 的 机 器 学 习 算法 和 模型 列举 出 来 : 


Machine Learning Jungle 


bagging decision tree support vector machine neural network kernel 


ENEN aggregation sparsity autoencoder functional gradient 
dual ‘Uniform blending deep learning nearest neighbor decision stump 


kernel LogReg large-margin Prototype quadratic programming SVR 


GBDT PCA random forest Matrix factorization Gaussian kernel 
k-means OOB error RBF network probabilistic SVM 


soft-margin 





welcome to the jungle! | 
总 结 


本 节 课 主要 从 三 个 方面 来 对 机 器 学 习 技 法 课程 做 个 总 结 : Feature Exploitation 
Techniques, Error Optimization Techniques 和 Overfitting Elimination Techniques。 最 


后 介绍 了 林 轩 田 老师 带领 的 台大 团队 是 如 何在 历届 KDDCup 中 将 很 多 机 器 学 习 算法 模 


型 融合 起 来 ， 并 获得 了 良好 的 成 绩 。 


ə Feature Exploitation Techniques 
kernel, aggregation, extraction, low-dimensional 
ə Error Optimization Techniques 
gradient, equivalence, stages 
e Overfitting Elimination Techniques 
(lots of) regularization, validation 
ə Machine Learning in Practice 
welcome to the jungle 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


